Extraction de formules chimiques dans des documents manuscrits composites
نویسندگان
چکیده
RÉSUMÉ. Nous abordons dans ces travaux, le problème de la segmentation de documents de cahiers de la chimie en zones homogènes. Les documents à traiter sont manuscrits sans contraintes composés de zones de textes, de tableaux et de graphiques, représentant l’expression graphique de l’expérience réalisée. L’objectif de ce premier travail est d’extraire, dans chaque document, le bloc contenant le schéma graphique. Nous proposons une méthode d’extraction et de classification des structures élémentaires du document sur lesquels s’appuiera une technique de séparation verticale des blocs. Des descripteurs spécifiques tenant compte de la texture du texte et du graphique sont pris en compte. Des connaissances a priori sur la structure du document sont ensuite utilisées pour délimiter le bloc graphique. Les résultats expérimentaux obtenus sur une variété de documents de chimie sont de l’ordre de 92% de bonne extraction de graphique
منابع مشابه
Extraction automatique de champs numériques dans des documents manuscrits
Résumé. Nous décrivons dans cet article une chaine de traitement complète et générique permettant d’extraire automatiquement les champs numériques (numéros de téléphone, codes clients, codes postaux) dans des documents manuscrits libres. Notre chaïne de traitement est constituée des trois étapes suivantes: localisation des champs numériques potentiels selon une approche markovienne sans reconna...
متن کاملUne nouvelle approche pour indexer les documents manuscrits anciens Une nouvelle approche pour indexer les documents manuscrits anciens
Résumé : Dans cet article nous présentons une architecture pour la description et la recherche de documents manuscrits anciens. Nous utilisons une décomposition en Curvelets des images pour indexer les fragments linéaires de l’écriture. Appartenant à la famille des ondelettes, cette transformée nous permet d’avoir plusieurs niveaux de détails. Le schéma général consiste à analyser les orientati...
متن کاملUn modèle neuro markovien profond pour l'extraction de séquences dans des documents manuscrits
RÉSUMÉ. Dans cet article, nous proposons un système d’extraction de mots clés dans des documents manuscrits. Notre approche est basée sur la reconnaissance des lignes de texte à l’aide d’un modèle HMM capable de rejeter les mots n’appartenant pas à un lexique prédéfini. Afin d’être plus discriminant, nous avons remplacé les mélanges de gaussiennes des HMM par un réseau de neurones profond pour ...
متن کاملFusion des connaissances en analyse de documents - Exemples sur des documents d'archives
RÉSUMÉ. La reconnaissance de collections de documents structurés numérisés et notamment de documents d’archives est difficile non seulement par la complexité de l’organisation des documents, mais aussi par la dégradation des documents (tâches, déchirures, encre traversant le papier, courbures produites à la numérisation. . . ). Afin d’améliorer la qualité de la reconnaissance tout en gérant le ...
متن کاملApprentissage supervisé pour la catégorisation de documents manuscrits en-ligne
RÉSUMÉ. Cet article s’intéresse à la problématique de la catégorisation automatique de documents manuscrits en-ligne et plus particulièrement à l’impact de la reconnaissance de l’écriture dans un processus de catégorisation utilisant des méthodes d’apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d’un système de reconnaissance de l’écriture en-ligne e...
متن کامل